“Büyük Dil Modellerinin Gizemini Araştırmak”

Yapay zeka insan dilini doğru şekilde kullanamamalı. Ve yine de -efsaneye göre uçamayan yaban arısı gibi- yine de uçuyor. Uzun bir süre, istatistiksel bir temelde çalıştıkları için derin öğrenme algoritmalarının, belirsizlikler ve nüanslarla dolu, anlamları bağlama göre değişen ve dilbilgisi yapısı inanılmaz derecede karmaşık olan kelimelerin karmaşıklığını asla yönetemeyeceği düşünülüyordu. Bu durumda, teknoloji beklentileri aştı: 2016 civarında makine çeviri sistemlerinde derin öğrenmenin tanıtılmasından ve ardından büyük dil modelleri (LLM) altında yatan dönüştürücü mimarisinin ortaya çıkmasından bu yana, yapay zeka dili başarılı bir şekilde işleme, giderek daha doğru bir şekilde çeviri yapma, tutarlı metinler oluşturma, sorularımızı yanıtlama vb. yeteneğini kanıtladı.
Derin öğrenme başarısız olacağı düşünülen yerde neden başarılı oluyor? Trieste'deki Sissa'da (International School for Advanced Studies) Alman araştırmacı olan Sebastian Goldt'un bulmaya çalıştığı şey bu. 2024'te saygın ERC'den (Avrupa Araştırma Konseyi) fon kazandıktan sonra, Goldt şimdi İtalya, Almanya ve Fransa'dan 8 kişiden oluşan ve önümüzdeki 5 yıl içinde büyük dil modellerinin "gizemini" çözmesi gereken ekibi yönetiyor.

Derin öğrenme algoritmaları neden dilin karmaşıklığını doğru bir şekilde analiz edemesin?
1950'lerden beri, verilerden neyin öğrenilebileceği ve neyin öğrenilemeyeceği konusunda oldukça yerleşik bir teori var. Dil durumunda, bağlamı, anlamı, dilbilgisi ilişkilerini anlamak için özel olarak tasarlanmış bir algoritma gerektiği düşünülüyordu. Öte yandan, sinir ağları çok genel yapılardır: dönüştürücülerde dil için özel olarak tasarlanmış hiçbir şey yoktur. Bir fiilin veya ismin ne olduğunu önceden bilmezler. Tamamen istatistiksel olarak çalışırlar. Onlarca yıl boyunca, böyle genel bir yaklaşımın dil ile asla işe yaramayacağı düşünüldü. Ancak bugün, pratikte, dilsel amaçlar için özel olarak tasarlanmış yaklaşımlardan daha iyi çalıştığını görüyoruz.
Araştırmanızın odaklandığı spesifik noktalar nelerdir?
Öncelikle, dilbilgisi kurallarının metinleri istatistiksel düzeyde nasıl etkilediğini anlamak istiyoruz. Bunu yapmak için, kesin kurallara sahip basitleştirilmiş dil modelleri oluşturuyoruz ve bunların kelimelerin dağılımına nasıl yansıdığını inceliyoruz. İkinci olarak, bir sinir ağının, dilin kuralları hakkında hiçbir bilgi sahibi olmadan, yalnızca verilerden başlayarak bu düzenlilikleri nasıl "yakalayabileceğini" inceliyoruz.
Hiçbir sır yokken, her şeyin sözde "ölçekleme yasası"na bağlı olması mümkün müdür? Bu yasaya göre, sinir ağlarının boyutu, eğitim için kullanılan veri miktarı ve hesaplama gücü arttıkça, bu modellerin yetenekleri de artıyor mu?
Bu modellerin başarısının büyük ölçüde ölçekleme yasasından kaynaklandığını düşünüyorum. Sonuçta, bu modeller çevrimiçi olarak erişilebilen hemen hemen tüm metinler üzerinde eğitiliyor. Çok büyük miktarda veri. Ancak iki sorun var. Birincisi, bu sistemler çok fazla kaynak tüketiyor. Bunları daha sürdürülebilir bir şekilde kullanmak istiyorsak, benzer sonuçlara ulaşmanın alternatif ve daha verimli bir yolu olup olmadığını anlamamız gerekiyor. İkincisi, bu sistemlerin ilerlemesinin yavaşladığına ve transformatörler için ölçekleme yasasının sınırlarını gösterdiğine dair işaretler var. Bu sistemlerin dili nasıl kullanabileceği hakkında daha fazla bilgi edinmek, her iki engeli de aşmamızı sağlayabilir.
Acaba halüsinasyon, yani yanlış veya uydurulmuş bilgilerin gerçekmiş gibi sunulması sorununu çözmemize de yardımcı olabilir mi?
Ocak ayında projemiz üzerinde çalışmaya başladık, henüz başlangıç aşamasındayız. Halüsinasyonlar konusuna da katkıda bulunabilmeyi umuyoruz. Ancak zor: Bilgiler modeller içinde çok karmaşık bir şekilde dağılmış durumda, sanki sabit diskte saklanıyormuş gibi yerelleştirmek mümkün değil. Bu ve diğer nedenlerden dolayı bir halüsinasyonun nereden geldiğini veya bundan nasıl kaçınılacağını anlamak kolay değil. Korkarım ki bunlar LLM'lerin ayrılmaz bir parçası.
Çalışmanız bizim de dilimiz hakkında bir şeyler anlamamıza yardımcı olacak mı?
Kesinlikle. Ben bir dilbilimci değil, fizikçiyim ama bu modellerin başarısının bizi bazı temel fikirleri yeniden düşünmeye zorladığını düşünüyorum. Hukuk alanında lisans dereceleri, dilin büyük bir kısmının istatistiksel olarak öğrenilebileceğini ve hatta akıl yürütmenin kanıtları olarak düşündüğümüz şeylerin bile basit olasılıksal tahminler yoluyla üretilebileceğini göstermiştir. Dolayısıyla belki de akıl yürütmenin ne anlama geldiği ve dilin gerçekte ne olduğu konusunda yeni bir şeyler öğreniyoruz.
La Repubblica